作者
通讯作者
《分子植物育种》网络版, 2026 年, 第 24 卷, 第 6 篇
收稿日期: 2026年04月30日 接受日期: 2026年05月25日 发表日期: 2026年06月05日
方宣钧, 梁其学, 2026, 统计遗传学中的因果推断统一框架:整合GWAS、分子QTL、共定位与孟德尔随机化, 分子植物育种, 24(1): 16-30 (10.5376/mpb.2026.24.0002) (Fang X.J., and Liang Q.X., 2026, A unified framework for causal inference in statistical genetics: integrating GWAS, molecular QTL, colocalization, and Mendelian randomization, Fenzi Zhiwu Yuzhong (Molecular Plant Breeding), 24(1): 16-30 (doi: 10.5376/mpb.2026.24.0002))
全基因组关联研究(GWAS)已在复杂性状遗传学中识别出大量关联位点,但如何将这些统计信号转化为可解释的生物学机制,仍是当前研究的核心挑战。其关键困难在于,不同数据层所反映的信息类型不同,难以在关联、信号一致性与因果关系之间建立清晰区分。本研究提出一个统计遗传学中因果推断的统一分析框架,整合GWAS、分子数量性状位点(QTL)、转录组关联研究(TWAS)、共定位分析以及孟德尔随机化(MR)等方法。在该框架中,不同方法承担不同层级的推断任务:GWAS用于识别变异—性状关联;分子QTL与TWAS用于建立遗传变异与中间表型之间的联系;共定位用于评估不同数据来源信号的一致性;MR则在明确假设条件下评估潜在作用方向与效应大小。本研究强调,这些方法应被理解为证据逐步收敛的过程,而非相互独立的分析步骤。具体而言,共定位是筛选候选机制的重要依据,但并不能直接支持因果关系;MR虽提供效应估计,但其结果依赖于工具变量的有效性及多效性、异质性等因素的控制。本研究进一步讨论了方法实施中的关键问题,包括工具选择、诊断评估与跨人群验证,以及多效性、组织特异性和环境效应带来的挑战。最后,本研究将该框架扩展至植物系统与多组学数据情境,探讨单细胞与表观组学在细化因果解释中的作用。通过明确不同方法在整体推断体系中的功能与边界,本研究为从遗传关联走向生物学机制提供了一条结构化且可操作的分析路径。
1引言
全基因组关联研究(Genome-Wide Association Studies, GWAS)在复杂性状遗传学中产出了规模空前的统计关联信号,但其本质上刻画的是位点—性状之间的关联统计对象(association estimand),而非直接对应生物学因果机制。这一根本差异构成了从统计关联到功能解释之间的核心断裂,大量GWAS信号位于非编码区域,受连锁不平衡(linkage disequilibrium, LD)及多层调控元件共同影响,使得单一显著峰往往映射至多个潜在候选基因与调控路径;即便通过精细定位(fine-mapping)得到较小的可信集合(credible set),其所刻画的仍是因果概率分布(causal probability estimand),而非因果方向或作用路径本身(Liu et al., 2019; Wainberg et al., 2019; Xie et al., 2021; Mostafavi et al., 2023)。
从统计遗传学的统一视角看,复杂性状研究可以被理解为一条由不同统计对象(estimand)构成的多层推断链。GWAS刻画关联证据,精细定位刻画因果概率,而多基因风险评分(PRS)则将这些信息映射为个体层面的预测函数(predictive functional)。然而,在这一链条中仍存在关键缺口,即如何从“因果概率”进一步推断“因果路径与因果效应”(causal pathway and causal effect estimand)。这一缺口正是功能整合分析(functional integration)与因果推断方法所试图解决的核心问题。
为弥合这一断裂,表达数量性状位点(expression quantitative trait loci, eQTL)与转录组关联研究(transcriptome-wide association studies, TWAS)引入分子表型作为中介层,将推断对象从“变异层”扩展至“基因表达层”,从而构建基因型到基因表达的中介映射(mediation mapping estimand)。在这一框架下,eQTL刻画遗传变异对表达调控的因果候选关系,而TWAS通过整合GWAS汇总统计与表达预测模型,在基因层面构建关联统计量,实现候选基因的优先排序(Wainberg et al., 2019; Xie et al., 2021; Zhao et al., 2022)。
然而,需要强调的是,TWAS本质上仍然是在LD结构约束下的关联统计投影,而非因果效应估计。由于邻近基因共调控、LD污染、组织不匹配以及遗传混杂等因素,TWAS信号可能由非因果位点驱动,导致“旁观者基因(bystander genes)”被误优先(Liu et al., 2019; Zhao et al., 2022; Tambets et al., 2024)。因此,TWAS提供的是必要但非充分的因果证据,其统计对象仍属于关联统计对象在基因层面的重表达,而非因果统计对象。
在这一背景下,共定位分析(colocalization)提供了关键的统计接口。不同于独立的关联分析,共定位本质上是在两个后验因果分布之间进行一致性检验,即评估GWAS与分子QTL信号是否共享相同的潜在因果变异,从而在概率层面建立跨数据域的因果连通性。这一过程可理解为,对fine-mapping所得因果概率分布的一致性约束(shared causal configuration estimand),从而在“关联—因果概率—功能解释”之间建立可计算桥梁。
在此基础上,孟德尔随机化(Mendelian Randomization, MR)进一步将推断目标从“因果概率”推进至因果效应参数(causal effect estimand)。MR以遗传变异作为工具变量(instrumental variables, IV),在满足相关性、独立性与排他性三大假设的条件下,估计“暴露(如表达或蛋白)→结局(性状)”的因果效应,从而在原则上克服观测研究中的混杂与反向因果问题(Hemani et al., 2018; Jiang et al., 2022)。
然而,在现实数据中,MR的统计有效性面临多重挑战,包括水平多效性(horizontal pleiotropy)、复杂LD结构以及弱工具变量等问题,这些因素会导致估计偏倚并增加假阳性风险(Barfield et al., 2018; Tambets et al., 2024)。此外,cis-eQTL工具变量的跨组织稳定性与强度限制,也进一步制约了MR在因果基因定位中的应用能力(Lu et al., 2024)。近年来,MR-Egger、加权中位数、MR-PRESSO等稳健方法的发展,使得不同偏倚模式能够被显式诊断与部分校正,但其有效性仍依赖于上游eQTL/TWAS与共定位分析所提供的结构性证据(Hemani et al., 2018; Zhao et al., 2022)。
基于上述分析,本研究提出并系统化一个统一的“统计遗传学因果推断层(causal inference layer)”理论框架。在该框架中,不同方法不再被视为独立工具,而是对应于不同统计对象(estimand)的推断模块:
GWAS:association estimandfine-mapping:causal probability estimandeQTL/TWAS:mediation mapping estimandcolocalization:shared causal configuration estimandMR:causal effect estimand在此统一视角下,复杂性状研究可被形式化为一条“功能整合的因果链”:GWAS → fine-mapping → eQTL/TWAS → colocalization → MR。该链条实现了从统计关联到因果效应估计的逐层收敛,其中每一层均对应明确的统计对象、假设条件及误差来源。该基于统计对象的推断思路也可进一步拓展至多性状遗传解析领域,通过结构层、位点层与模式层推断,区分共享遗传结构与因果解释之间的边界(Fang, 2026)。
本研究在这一统一框架下,系统梳理各推断层的统计基础、方法假设与适用边界,重点分析不同模块之间的接口关系与误差传播路径,并提出面向多祖源与多组织数据的可操作分析流程与报告规范。通过这一框架,功能整合分析不再是方法拼接,而成为统计遗传学中连接“关联发现—因果概率—机制解析”的核心推断层,为复杂性状的因果基因发现与跨系统应用提供统一理论基础。
2 eQTL与功能表型的整合
在复杂性状遗传研究中,eQTL分析提供了一个关键的连接层,使得遗传变异与分子表型之间的关系能够被显式建模。相较于GWAS所揭示的位点—性状统计关联,eQTL关注的是遗传变异对基因表达或其他分子表型的调控作用,从而为理解潜在的作用路径提供中间证据。因此,在功能整合分析中,eQTL并不直接用于判定因果关系,而是用于刻画变异可能通过哪些分子机制影响表型。
在实际分析框架中,这一层的主要作用体现在两个方面:一是为后续共定位分析提供分子层面的候选信号;二是为孟德尔随机化提供可用的工具变量来源。由此,eQTL分析构成了从“统计关联”过渡到“机制解释”的关键步骤。
2.1 cis-eQTL与trans-eQTL
根据作用范围的不同,eQTL通常被划分为cis-eQTL与trans-eQTL。前者位于目标基因附近,其效应多通过启动子、增强子或3′UTR等顺式调控元件实现,对转录水平或mRNA稳定性产生直接影响。大量跨组织数据表明,cis调控在不同系统中具有较高的重复性,并与相当比例的GWAS信号发生重叠(Liu et al., 2019; Wainberg et al., 2019)。因此,在实际分析中,cis-eQTL往往被优先用于构建从遗传变异到基因表达的候选路径。
在整合分析中,cis-eQTL的作用主要体现在两个方面。一方面,可通过与GWAS信号的共定位分析检验二者是否由相同的潜在变异驱动;另一方面,其较稳定的效应使其在孟德尔随机化中更适合作为工具变量,用于评估表达变化与性状之间的关系。需要注意的是,连锁不平衡可能导致信号在邻近位点之间传播,而不同等位基因的异质效应也可能使结果解释复杂化。因此,通常需要结合细化定位结果、等位基因特异表达以及染色质功能注释,对证据进行综合评估。
相比之下,trans-eQTL作用于远距离基因,其调控往往通过转录因子、miRNA或染色质空间结构等间接途径实现,呈现出更为复杂的调控模式(Kirsten et al., 2015)。这类效应通常较弱,且更容易受到细胞组成、环境因素及群体结构的影响,从而增加统计推断的不确定性。近年来的研究表明,一部分trans效应可以通过上游的cis调控节点逐级传导,形成类似“调控主导子—下游网络”的层级结构(Kvamme et al., 2025)。基于这一认识,在分析策略上可以先识别潜在的cis调控位点,再结合共表达网络或中介分析,对其下游影响进行分解,并在必要时通过分步的孟德尔随机化检验不同层级之间的关系(图1)。
|
图1 cis-eQTL与trans-eQTL的调控模式及其在功能整合分析中的作用 注:cis-eQTL通常通过邻近的顺式调控元件(如启动子或增强子)直接影响目标基因的表达水平,因而在统计分析中更容易与GWAS信号建立对应关系。相比之下,trans-eQTL通过转录因子、miRNA或染色质空间结构等间接途径作用于远端基因,往往涉及多层级调控网络,其效应更易受到细胞环境和群体结构的影响。本图示意两类eQTL在调控范围与作用路径上的差异,并反映在实际分析中由局部调控向网络级影响逐步扩展的特点 Figure 1 Regulatory patterns of cis- and trans-eQTL and their roles in integrative analyses Note: Cis-eQTLs typically influence gene expression through proximal regulatory elements, such as promoters or enhancers, and are therefore more readily aligned with GWAS signals in integrative analyses. In contrast, trans-eQTLs act on distal genes through indirect mechanisms involving transcription factors, miRNAs, or chromatin interactions, often reflecting multi-layer regulatory processes and increased sensitivity to cellular and population context. The figure illustrates the differences in regulatory scope and pathways between these two classes, highlighting the transition from local regulatory effects to broader network-level influences |
在植物群体中,这一问题往往更加突出。较长的连锁不平衡区间、结构变异以及多倍体背景都会增加远程调控信号的解析难度。因此,在研究设计阶段引入多亲本群体(如NAM或MAGIC)以及泛基因组参考,有助于减少误归因风险并提高结果的稳定性。
2.2组织与细胞型特异性
eQTL效应在不同组织或发育阶段之间往往存在显著差异(Fagny et al., 2017)。部分位点在多组织中具有一致效应,而另一些则表现出明显的组织特异性。这种差异反映了染色质状态、调控网络及细胞组成的不同。因此,在功能整合分析中,优先选择与研究性状相关的组织进行分析,通常能够提高结果的解释力。同时,对跨组织一致性与差异性的同时报告,有助于区分稳健信号与背景依赖信号。
在整体组织数据中,细胞组成差异是一个重要的混杂来源。为此,可以结合去卷积方法、组织或细胞型交互模型以及环境交互分析,对效应的背景依赖性进行更系统的评估(Zhang and Zhao, 2023)。
单细胞eQTL(sc-eQTL)进一步提高了解析分辨率,使得调控效应可以定位到特定细胞类型甚至状态水平。相关研究已在免疫系统与脑组织中发现大量细胞型特异的调控信号,并揭示其动态变化特征(Bryois et al., 2022)。在统计实现上,通常通过伪体块汇总或层级模型来平衡分辨率与统计功效。在因果分析中,这类数据有助于为后续分析提供更贴近作用位点的表达信息。
2.3扩展类型:sQTL、pQTL与meQTL
除传统eQTL外,不同层级的分子QTL进一步丰富了功能整合的分析框架。剪切QTL(sQTL)关注转录本结构变化,其效应有时与总体表达量变化相对独立,因此可以从“表达—剪切”两个维度同时刻画调控过程(Zheng et al., 2020)。在分析中,可结合转录本水平的关联方法或多暴露模型,对不同机制的贡献进行区分。
蛋白质QTL(pQTL)直接反映蛋白丰度变化,更接近多数性状的功能终端。虽然部分cis-pQTL可作为较强的工具变量,但其与eQTL之间并不总是高度一致,这提示转录后调控在部分性状中具有重要作用。
甲基化QTL(meQTL)则刻画遗传变异对DNA甲基化的影响,可与染色质可及性及组蛋白修饰等信息结合,从更高层级描述调控环境。在多组织分析中,meQTL与eQTL或GWAS信号往往仅部分重叠,这进一步说明不同调控层之间可能存在相对独立的作用路径。
对于植物系统,还需考虑不同甲基化类型(CG、CHG、CHH)及其调控机制的差异,并结合环境分层分析,以提高结果解释的可靠性。
3 TWAS:从GWAS到转录组水平的关联
在功能整合分析中,TWAS提供了一种将GWAS信号映射至基因层面的途径,使得遗传变异与表型之间的关系可以通过表达这一中介进行刻画。与直接基于位点的关联分析不同,TWAS关注的是由遗传变异驱动的表达变化是否与性状相关,从而在“变异—表达—表型”之间建立可计算的联系。
需要强调的是,这一过程并不直接识别因果关系,而是在给定表达预测模型与LD结构的前提下,将位点层信号重新组织为基因层统计量。因此,TWAS更接近于对GWAS信号的一种结构化重表达,而非独立的因果推断方法。
3.1 基本原理
TWAS的基本思想是利用独立参考队列中基因表达与基因型的联合数据,构建表达的预测模型,并将该模型应用于GWAS数据以评估基因层面的关联(Li and Ritchie, 2021; Evans et al., 2024)。对于基因g,其预测表达通常表示为:
![]()
其中,Lg通常限定为基因附近的cis区域,wgj为在参考数据中估计得到的权重(如Elastic-Net、BLUP或BSLMM),Gj为对应SNP的基因型剂量。随后,通过检验
与表型Y的关系,评估遗传调控的表达成分是否与性状相关(Mai et al., 2023)。
在仅有GWAS摘要统计的情况下,TWAS可通过LD加权的方式构建基因层统计量。设Z为GWAS位点的Z统计量向量,R为对应LD矩阵,则基因层统计量可近似表示为:

该统计量的显著性依赖于权重在LD结构中的有效信息含量。因此,在实际应用中有两个关键前提:一是LD参考需与目标GWAS群体尽可能匹配;二是表达模型所基于的组织或细胞类型应与研究性状具有生物学相关性(Li and Ritchie, 2021)。
3.2常见方法
现有TWAS方法大体遵循“模型训练—外推检验”的思路,但在权重构建与多组织信息利用上有所不同。PrediXcan及其摘要统计版本S-PrediXcan采用弹性网回归在参考数据中估计cis权重,再在目标数据中完成基因—性状关联检验。MultiXcan与UTMOST进一步整合多组织信息,以区分共享效应与组织特异效应。
FUSION则在统一框架下整合多种表达预测模型(如BLUP、LASSO、Elastic-Net及BSLMM),并在摘要统计层面直接计算基因层关联,同时对表达可遗传度与模型不确定性进行评估(Evans et al., 2024)。这一类方法更强调模型选择与LD结构修正的稳健性。
在此基础上,近年来的一些扩展方法引入非参数或贝叶斯建模策略(如TIGAR及其改进版本),或通过整合多重先验信息提高检验功效(Parrish et al., 2022; Liang et al., 2025)。这些发展使TWAS在不同数据条件下具有更好的适应性。
总体而言,不同方法的差异主要体现在两个方面:一类侧重于表达权重的可迁移性与跨数据集应用,另一类更关注模型整合与不确定性控制。在实际应用中,TWAS结果通常需要结合细化定位与共定位分析进行解释,从而逐步将基因层关联信号收缩为更可信的候选区域(Li and Ritchie, 2021; Mai et al., 2023)。
3.3局限性
尽管TWAS在连接GWAS与功能解释方面具有重要作用,但其结果解释仍受到多方面限制。首先,表达预测模型的可迁移性通常有限。权重估计依赖于参考数据的祖源背景、LD结构及组织来源,当这些因素与目标GWAS数据不匹配时,预测表达的外推性能会下降,从而影响统计效能与结果稳定性(Li and Ritchie, 2021; Mai et al., 2023)。多组织方法及更大规模的参考数据(如GTEx)可以在一定程度上缓解这一问题,但仍难完全消除偏差。
其次,TWAS结果本身仍然属于关联性质。由于LD结构的存在,表达预测权重可能吸收与因果变异高度相关但并非因果的位点信号;此外,共调控结构与潜在混杂因素也可能导致非因果基因表现出显著关联。因此,单独依赖TWAS结果进行因果解释容易产生偏误(Wainberg et al., 2019; Evans et al., 2024)。相关研究表明,若将TWAS信号直接解释为表达对性状的因果作用,可能显著增加假阳性率(Zhu and Zhou, 2020; De Leeuw et al., 2023)。
基于上述原因,TWAS通常需要与位点层证据结合使用。例如,通过共定位分析检验GWAS与表达信号是否共享同一潜在变异,或通过孟德尔随机化进一步评估表达与性状之间的关系。这种分层整合有助于减少误判,并提高结果的解释可靠性。
最后,TWAS的覆盖范围仍受限于参考数据的构成。当前eQTL资源对稀有变异、trans调控及非编码RNA的刻画仍不充分,这限制了模型的全面性。未来方法的发展方向包括引入更灵活的建模策略、扩展多祖源与多组织参考数据,以及在植物和多环境研究中显式考虑基因型与环境的交互效应(Parrish et al., 2022; Liang et al., 2025)。
4共定位分析的作用与局限
在从GWAS信号过渡到功能解释的过程中,一个关键问题是不同数据来源(如GWAS与分子QTL)在同一基因组区域内的信号,是否反映了相同的潜在遗传因素。共定位分析正是在这一背景下发展起来,用于评估不同关联信号之间的一致性,从而为后续机制解释提供依据。
与单一数据集中的关联分析不同,共定位关注的是跨数据来源的信号对应关系。其核心在于判断在给定的LD结构与统计不确定性条件下,两个信号是否可以由同一潜在变异解释。这一判断在实际分析中起到筛选作用,有助于将候选区域从“统计关联”进一步收缩为更具解释力的位点。
4.1共定位的统计框架
典型的共定位方法(如COLOC)在贝叶斯框架下对一组互斥假设进行比较,包括无信号、仅GWAS信号、仅QTL信号、二者各自独立以及共享同一潜在变异等情形。通过计算这些假设的后验概率,可以得到对“是否共享变异”的量化评估,其中PPH4常被用作共享证据的代表性指标(Zuber et al., 2022)。
随着数据复杂性的增加,原有单一因果变异的假设在许多区域已不再适用。为此,后续方法引入了多信号建模与细化定位的结合,如coloc与SuSiE或FINEMAP的联合分析,以及eCAVIAR、fastENLOC等工具(Foley et al., 2021; Wallace, 2021)。这些方法在处理多峰结构和跨性状信号时表现出更好的稳定性,也使得共定位分析逐渐从简单的假设检验发展为与位点细化相互嵌合的分析步骤。
在实际应用中,共定位分析依赖于严格的数据协调,包括等位基因方向的一致性、效应量与标准误的统一表达,以及LD参考的匹配。由于一个区域内可能存在多个独立信号,通常建议先进行条件分析或细化定位,再开展共定位,或直接采用支持多信号的模型。在多组织情境下,可以对不同组织分别进行评估,并结合功能注释信息进行综合判断,从而形成从位点到基因的证据链(Wallace, 2021; Zuber et al., 2022)。
需要注意的是,PPH4的阈值(如0.8)虽常被用作经验标准,但其解释仍依赖于模型设定、先验选择以及数据质量,因此应结合敏感性分析与条件化结果进行综合评估(图2) (Rasooly et al., 2022)。
|
图2 共定位分析的统计判别逻辑及其在跨数据整合中的作用 注: 共定位分析用于评估GWAS与分子QTL(如eQTL)在同一基因组区域内的关联信号是否与同一潜在遗传变异相一致。该方法在贝叶斯框架下比较五种互斥情形,包括无信号、仅GWAS或仅QTL存在信号、二者各自独立以及共享变异等,从而对不同解释路径进行量化。本图展示了COLOC模型下各假设对应的信号模式,并以PPH4表示“共享变异”情形的后验支持程度。需要注意的是,PPH4反映的是信号一致性的统计证据,而非对具体作用机制或因果路径的直接判定 Figure 2 Statistical decision framework of colocalization analysis and its role in cross-dataset integration Note: Colocalization analysis evaluates whether association signals from GWAS and molecular QTL (e.g., eQTL) within the same genomic region are consistent with a shared underlying genetic variant. Under a Bayesian framework, methods such as COLOC compare five mutually exclusive scenarios, including no signal, GWAS-only, QTL-only, independent signals, and shared signals, thereby quantifying alternative explanations for the observed patterns. The figure illustrates these scenarios and the corresponding signal configurations, with PPH4 representing the posterior support for the shared-variant hypothesis. It should be noted that PPH4 reflects statistical evidence for signal concordance rather than direct inference of causal mechanisms or mediation |
4.2共定位与因果解释的边界
尽管共定位分析在筛选候选位点方面具有重要作用,但其结果不应被直接解释为因果关系的证据。即使在PPH4较高的情况下,也只能说明两个信号在统计上可能由同一变异驱动,而无法区分具体的作用路径。
一种常见情形是水平多效性,即同一变异通过不同路径分别影响分子表型和复杂性状,从而产生表面上的一致性信号。在这种情况下,即便共定位结果显著,也不意味着分子表型在该路径中发挥了中介作用(Rasooly et al., 2022)。此外,表观组学研究表明,许多疾病相关位点涉及复杂的调控网络,可能存在多条并行通路(Shikov et al., 2020; Boix et al., 2021; Khan et al., 2024)。
连锁不平衡与等位基因异质性同样会影响共定位结果,尤其是在多信号区域中,真实因果变异可能被邻近信号掩盖(Wallace, 2021)。因此,共定位更适合作为筛选工具,而非终结性证据。
在分析流程中,共定位通常用于优先筛选那些在不同数据来源中表现一致的位点,再结合其他方法进行进一步验证。例如,可在共定位支持较强的区域开展孟德尔随机化分析,以评估潜在的作用方向与效应大小;而对于共定位结果不明确的区域,则应回到细化定位与数据匹配的层面,避免在不稳定信号基础上进行过度解释。
4.3在植物中的应用
在植物系统中,共定位分析同样展现出较高的应用价值,尤其是在解析组织特异性与环境依赖性调控方面。多组织和多环境研究表明,许多调控变异的效应依赖于具体的组织类型和生长条件,这使得同一位点在不同情境下对性状的贡献存在差异。
例如,在作物和模式植物中,多组织共定位分析揭示了叶、根及果实等不同器官中存在差异化的调控模式;同时,不同发育阶段的比较也显示出时间依赖的表达调控特征。番茄等作物的研究进一步表明,一些保守的发育相关基因具有多效性,其调控机制在不同环境或物种中表现出一定的一致性与差异性(Hendelman et al., 2021)。
在实践中,建议在与性状相关的组织和代表性环境条件下分别构建eQTL图谱,并开展分层共定位分析。结合多亲本群体(如NAM或MAGIC)可以有效缩短LD区间,提高多信号区域的分辨率。在多倍体作物中,还需考虑同源基因的表达区分问题,以减少基因归属的不确定性。
对于通过共定位筛选得到的候选位点,可进一步结合孟德尔随机化分析评估表达与性状之间的关系,并通过近等基因系、基因编辑及表达验证等手段,逐步建立从变异到性状的证据链。
5孟德尔随机化(MR)的因果推断框架
在整合分析流程中,孟德尔随机化通常位于较为后端的位置,用于在已有遗传关联与分子证据的基础上,进一步评估潜在的作用方向与效应大小。其基本思想是利用遗传变异作为工具变量,将表达或其他分子表型视为“暴露”,从而对其与复杂性状之间的关系进行推断。
与前述分析步骤相比,MR不再仅关注信号的一致性或映射关系,而是试图在一定假设条件下,对效应进行定量描述。因此,其结果的解释依赖于工具变量的选择以及模型假设的合理性。
5.1工具变量的基本假设
MR分析通常基于三项基本条件。首先,所选遗传变异需要与暴露变量存在稳定关联,从而提供足够的信息用于估计效应。其次,这些变异应与潜在混杂因素相互独立,这一假设部分依赖于等位基因在群体中的随机分配。最后,工具变量对结局的影响应主要通过所考虑的暴露实现,而不通过其他独立路径。
在实践中,这些条件往往难以完全验证。例如,一个变异可能同时影响多个生物过程,从而产生额外的路径效应。正因如此,在进行MR分析之前,通常需要结合位点层面的信息,对工具变量进行筛选。共定位分析在此过程中发挥重要作用,当GWAS信号与分子QTL信号在同一区域内表现出较高一致性时,所选工具更有可能反映同一潜在来源,从而提高分析的可靠性(Zuber et al., 2022)。
5.2常用估计方法
在具体实现中,最常用的估计方法是逆方差加权(inverse-variance weighted, IVW)回归。该方法通过对各个工具变量的比值估计(即变异对结局的效应除以其对暴露的效应)进行加权整合,在所有工具有效或整体无偏的条件下,能够提供较高效率的估计。对于单一工具变量,可采用Wald比值进行计算。
当不同工具之间存在差异时,可采用随机效应模型以吸收额外变异。在此基础上,一系列稳健方法被提出以应对潜在偏倚。MR-Egger回归通过引入截距项,用于检测方向性偏差,并在一定条件下对其进行校正;其斜率仍可用于估计效应,但结果对工具强度和测量误差较为敏感。加权中位数方法在部分工具无效的情况下仍可获得稳定估计,而基于众数的估计方法则在特定分布条件下提供进一步的稳健性。
在多组织或多组学数据情境下,可将多个暴露变量同时纳入模型进行分析。例如,当表达、剪切或蛋白水平可能同时参与调控时,多变量MR(MVMR)可用于区分不同路径的贡献。这类方法在解释复杂调控关系时具有一定优势,但对数据质量和模型设定要求较高。
5.3弱工具与多效性的诊断
工具变量的强度直接影响MR结果的稳定性。若工具与暴露之间的关联较弱,估计结果可能偏向于观察到的相关性,并伴随较大的不确定性。常用的F统计量可用于评估工具强度,在单变量分析中通常以10作为经验参考值。在多变量情境下,还需分别评估各暴露对应的条件强度。
当检测到工具较弱时,可通过提高筛选阈值、限制为cis调控位点或采用更匹配的参考数据来改善模型表现。此外,样本重叠与“获胜者诅咒”等因素也可能影响估计,需要在设计与分析阶段加以考虑。
多效性是另一重要来源。整体离散程度可通过Cochran’s Q统计量进行评估,而MR-Egger截距可用于检测方向性偏差。MR-PRESSO提供了识别异常工具的手段,Radial MR则有助于可视化工具的影响程度。进一步的敏感性分析,如逐一移除工具变量(leave-one-out)或基于解释度比较的方向检验(Steiger test),可用于评估结果对个别工具的依赖程度。
在结果报告中,通常需要综合多种诊断指标进行判断。如果不同方法(如IVW、加权中位数和MR-Egger)得到一致结果,且主要诊断未提示明显问题,则结论相对稳健;反之,则需要回溯工具选择、数据匹配及前期分析步骤。
5.4在整合分析中的位置
在完整的分析流程中,MR通常建立在前期筛选的基础之上。共定位分析可用于识别在不同数据来源中表现一致的信号,从而为工具变量的选择提供依据;在此之后,MR用于进一步评估这些信号是否可能反映从分子表型到复杂性状的作用关系。
对于证据较强的区域,可进一步在不同数据集或条件下重复分析,以检验结果的稳定性。在多组织或多组学情境中,多变量模型可帮助区分不同路径的贡献。而对于证据不足或结果不一致的区域,则更适合回到位点层面或数据匹配问题进行重新评估。
总体而言,MR并非独立于前述方法存在,而是与关联分析、共定位及功能注释共同构成一个逐步收敛的分析过程。在这一过程中,各步骤提供的证据相互补充,使得从遗传变异到性状的解释逐渐从统计关联过渡到更具方向性的推断(Zuber et al., 2022)。
6整合分析中的因果推断路径
在复杂性状研究中,不同类型的数据与方法往往各自提供有限的信息。将这些信息有效整合,需要一个清晰的分析路径,使得从初始的遗传关联逐步过渡到更具解释力的结果。在这一过程中,各类方法并非独立使用,而是通过连续的筛选与补充,逐步缩小候选范围并提高推断的可靠性。
从实践角度看,这一过程通常始于GWAS信号的识别,并在后续分析中不断引入分子层和统计层的约束,使得候选位点由宽泛的关联区域逐渐收敛至更具体的基因或调控机制。
6.1从GWAS信号到候选基因
分析通常从GWAS摘要统计出发。首先需要对数据进行基本整理,包括统一等位基因方向、标准化效应量,并选择与研究人群匹配的LD参考。随后,可通过细化定位方法缩小候选变异集合,使分析集中于更有限的区域(Hormozdiari et al., 2016)。
在此基础上,引入分子QTL数据可以帮助评估不同信号之间的对应关系。共定位分析用于判断GWAS信号与分子表型信号是否可能来源于同一区域的相同变异,从而为后续分析提供筛选依据。当这种一致性得到支持时,可进一步利用表达预测模型,将位点层信号转化为基因层面的关联,从而缩小候选基因范围(Porcu et al., 2019; Wainberg et al., 2019; Zhang et al., 2024)。
在经过上述筛选后,可选择合适的工具变量,对表达或其他分子表型与性状之间的关系进行进一步评估。这一步通常依赖孟德尔随机化方法,用于检验可能的方向性关系并估计效应大小。通过这一连续过程,原始的GWAS信号逐步转化为更具体的假设,例如某一基因或调控过程可能参与性状形成(Lessard et al., 2024)。
需要注意的是,在数据条件不完整的情况下,分析路径可能需要调整。例如,当缺乏高质量的eQTL数据时,可先通过TWAS获得初步的候选基因,再结合外部数据进行后续验证。但在这种情况下,应谨慎解释结果,并避免在缺乏支持的条件下直接进行因果推断(Wainberg et al., 2019)。
在整个流程中,跨人群或跨环境的重复分析有助于评估结果的稳定性。同时,结合不同MR方法及其诊断结果,可以形成相对完整的证据体系,从而提高推断的可信度(Porcu et al., 2019; Zuber et al., 2022)。
6.2实践中的决策考虑
在具体应用中,不同数据条件会影响分析策略的选择。首先需要评估是否具备与研究性状相关的高质量分子QTL数据,以及是否存在匹配的LD参考。如果这些条件不足,则分析结果的解释空间会受到限制。
在候选位点的筛选过程中,局部调控信号通常更易解释,因此常作为优先考虑对象。对于远程调控信号,则往往需要额外的证据支持,例如网络分析或多步骤方法,以提高解释的可靠性。
功能注释在这一过程中也具有重要作用。当候选变异与已知的调控元件(如染色质开放区或转录因子结合位点)相一致时,其解释更具可信性;反之,在多信号或证据不足的情况下,通常需要进一步细化分析或补充数据(Hormozdiari et al., 2016)。
在较理想的情况下,当分子QTL信号与GWAS信号在同一区域内表现一致,并且工具变量条件较好时,可以开展进一步分析并报告主要结果,同时辅以多种方法进行敏感性评估(Porcu et al., 2019; Zuber et al., 2022)。而在证据不足或结果不一致的情况下,则更适合回到前期步骤重新评估数据与模型,而不是继续推进解释。
最终输出通常不仅包括统计结果,还应结合诊断指标与功能信息,对候选基因进行分级,以指导后续实验验证(图3) (Votava and Parks, 2021; Lessard et al., 2024)。
|
图3 基于多源数据整合的因果推断路径 注: 本图展示了统计遗传学中从GWAS信号到因果推断的整合分析路径。分析首先通过精细定位缩小候选变异范围,随后引入分子QTL数据建立遗传变异与中间表型的联系。TWAS用于将位点层信号转化为基因层关联,共定位分析用于评估不同数据来源信号的一致性,孟德尔随机化用于评估潜在的作用方向与效应大小。诊断分析与跨人群或环境的重复验证用于评估结果的稳健性。该路径体现了证据逐步收敛的过程,而非固定的线性流程 Figure 3 An integrative framework for causal inference in statistical genetics Note: This figure illustrates an integrated analytical pathway for causal inference in statistical genetics. The workflow begins with GWAS signals, followed by fine-mapping to refine candidate variants. Molecular QTL data are incorporated to link genetic variation with intermediate phenotypes. TWAS translates variant-level signals into gene-level associations, and colocalization evaluates whether signals across datasets are consistent with a shared underlying variant. Mendelian randomization is then applied to assess the direction and magnitude of potential effects. Diagnostic procedures and replication across populations or environments are used to evaluate robustness. The framework represents a progressive refinement of evidence rather than a strictly linear sequence |
6.3 应用示例
在实际研究中,这一整合路径已被广泛应用于不同系统中。在人类复杂性状研究中,例如血脂相关性状,可先在与代谢相关的组织中识别候选信号,并通过共定位分析筛选可能一致的区域。在此基础上,可利用表达数据构建进一步分析,并通过MR方法评估潜在关系。在结果稳定的情况下,再结合功能注释与外部证据,提出可能的作用机制或干预靶点(Porcu et al., 2019; Wainberg et al., 2019; Votava and Parks, 2021; Lessard et al., 2024; Zhang et al., 2024)。
在植物研究中,类似的分析思路也适用于复杂性状的解析。例如,在抗病性研究中,可在不同组织或环境条件下构建分子数据,并通过分层分析识别稳定信号。在此基础上,再结合多种方法对候选基因进行筛选与验证。由于植物系统中常存在较复杂的基因组结构,还需要结合多亲本群体设计或泛基因组信息,以提高分析分辨率与结果的可靠性(Zhang et al., 2024)。
这些应用表明,不同数据类型之间的整合,并不是简单的叠加,而是通过逐步筛选与验证,形成一条相对稳定的分析路径,使得从遗传变异到表型的解释更加具体且具有可检验性。
7 讨论
7.1 分子关联与因果估计的衔接
在复杂性状研究中,从遗传关联到机制解释的关键在于如何将不同层级的信息有效衔接。eQTL与TWAS为这一过程提供了分子层的约束,使原本分散于基因组中的关联信号能够被组织到更具功能解释力的层面;而孟德尔随机化则在此基础上,对潜在的作用方向与效应进行进一步评估。二者之间并非简单叠加,而是通过共定位分析实现过渡,从而在不同证据层之间建立联系。
在实际分析中,局部调控信号,尤其是来源于相关组织的cis-eQTL,往往更具稳定性,也更容易与GWAS信号建立对应关系。TWAS在此基础上将位点层信息转化为基因层关联,使候选范围进一步收敛。然而,这些结果仍主要反映统计层面的关联。共定位分析提供了一种判断不同信号是否可能源于同一遗传背景的手段,从而在一定程度上减少将非因果基因纳入后续分析的风险。只有在这一前提下,MR所提供的效应估计才更具解释意义(Porcu et al., 2019)。
随着数据类型的扩展,这一整合过程已逐步延伸至多组织和单细胞层面,使得调控效应能够在更精细的空间与情境中被识别。例如,细胞类型特异的表达调控在某些疾病机制中具有关键作用,这类信息的引入有助于提高分析的分辨率(Gleason et al., 2021)。
在实施层面,工具变量的选择仍然是影响结果的核心因素。优先选择cis调控信号,并结合匹配的LD参考与组织特异模型,有助于提高分析的稳定性。同时,多方法估计与系统性的诊断分析对于评估结果的可靠性具有重要作用(Hemani et al., 2018; Hu et al., 2022)。在涉及多个分子层或组织背景时,多变量模型可用于区分不同来源的信号,从而避免将共调控误解为单一路径的作用(Zuber et al., 2022)。
7.2多效性与异质性的影响
尽管整合分析能够提高解释能力,但其结果仍受到多效性与异质性的影响。水平多效性是其中最主要的挑战之一,即同一遗传变异可能通过多个路径影响不同表型,从而使得基于单一路径的解释变得不稳定。这种情况下,效应估计可能偏离真实的中介过程(Hemani et al., 2018)。
此外,不同数据来源之间的差异,如组织不匹配、群体结构差异以及环境条件的变化,也可能导致结果不一致。即使共定位分析显示信号之间存在一致性,这种一致性也可能来源于共享遗传背景,而不一定反映具体的作用路径(Zuber et al., 2022)。因此,共定位结果应被理解为筛选依据,而非因果结论。
在应对这些问题时,一方面需要在工具选择上保持谨慎,例如优先使用局部调控信号并控制LD结构;另一方面,应通过多种方法进行对比分析,以识别潜在偏差。不同估计方法在面对无效工具或多效性时具有不同的鲁棒性,联合使用有助于提高结果的可靠性。此外,系统性的诊断与敏感性分析对于识别异常信号具有重要意义(Hu et al., 2022)。
近年来,一些方法尝试在模型中直接引入多效性与异质性结构,从而提高在复杂背景下的适用性。这类方法在多组织与多情境分析中表现出一定优势,但其效果仍依赖于数据质量与模型设定(Gleason et al., 2021; Lu et al., 2024)。
7.3植物系统中的扩展
在植物研究中,整合分析面临更为复杂的背景。一方面,环境因素对基因表达与表型的影响更为显著,使得同一变异在不同条件下可能表现出不同的效应;另一方面,基因组结构的复杂性(如长程LD、结构变异以及多倍体)增加了信号解析的难度。
在这种情况下,分析策略需要进行相应调整。例如,在构建分子调控图谱时,应尽量覆盖与性状相关的组织和环境条件,并进行分层分析,以捕捉情境依赖的调控效应。同时,在选择工具变量时,需要考虑基因拷贝之间的区分问题,以避免信号混淆(Porcu et al., 2019)。
群体设计也对分析结果产生重要影响。多亲本群体能够提高分辨率,从而更好地区分多个潜在信号。在跨环境分析中,重复验证有助于识别稳定的调控关系,而多变量模型则可用于分解不同来源的效应(Lu et al., 2024)。此外,对未支持因果关系的结果进行记录同样重要,这有助于排除非功能性信号,并为后续研究提供参考。
7.4向多组学与动态系统的延伸
随着多组学数据的发展,遗传变异与表型之间的关系可以在更多层级上被刻画。表观组学和三维基因组数据为调控机制提供了直接证据,使得从变异到基因表达的路径能够在物理层面得到支持。例如,不同类型的QTL与染色质互作数据可以共同描述调控元件与目标基因之间的联系(Hu et al., 2018; Bhattacharya et al., 2021)。
将这些信息纳入分析框架,有助于在不同层级之间建立更完整的联系。例如,在同时考虑表达、剪接和蛋白水平时,可以通过多变量模型对不同路径进行区分,从而提高解释的精细程度。
单细胞与多模态数据进一步将分析推进到细胞类型和状态层面,使得调控效应能够在更具体的生物背景中被识别。这类数据已在多个系统中揭示出高度特异的调控模式,并为理解复杂性状提供了新的视角。
未来的发展方向可能包括将时间维度与扰动条件纳入分析,从而捕捉动态变化过程,以及在网络层面探索调控模块的作用。同时,将统计分析结果与高通量实验方法相结合,有望形成从数据分析到机制验证的闭环,从而进一步推动复杂性状研究的发展(Colomé-Tatché and Theis, 2018; Bhattacharya et al., 2021)。
8结论
在复杂性状遗传学中,从统计关联走向机制解释的核心难点,并不在于单一方法的性能,而在于如何在不同证据层之间建立一致且可检验的推断路径。本研究在此基础上,将共定位分析置于关键位置,将其视为连接分子关联与后续推断的必要环节,用以评估不同数据来源信号之间的一致性。
当GWAS信号与分子QTL信号在同一区域内表现出稳定的对应关系时,可以据此优先筛选候选基因及其调控单元。然而,这类结果仅反映信号层面的相容性,并不直接说明具体的作用路径或中介机制。换言之,这一步所提供的是进入后续分析的依据,而非对作用方式的最终解释。因此,在缺乏进一步证据的情况下,不宜将其等同于因果关系的建立。
在这一基础上,孟德尔随机化提供了一种对潜在作用关系进行定量评估的手段,使得分析可以从信号一致性进一步延伸至效应方向与大小的估计。但这一过程依赖于一系列假设条件,其成立程度直接影响结果的可靠性。工具变量的选择、数据匹配以及模型设定,均可能对推断产生实质性影响。因此,MR的应用需要结合多种估计方法与诊断手段,并在结果不一致时回溯前期分析步骤,而非单独依赖某一方法结论。
基于上述原则,本研究提出的整合路径并非固定流程,而是一个逐步收敛的分析框架。从GWAS信号出发,通过细化定位缩小候选变异集合;借助分子QTL与共定位分析筛选在不同数据层中表现一致的信号;在此基础上,通过表达或其他分子表型建立更具体的候选对象,并在条件允许时进一步评估其与性状之间的关系。最终输出的结果,不仅包括候选基因或位点,还应结合证据强度与一致性进行分级,以指导后续实验验证。
这一框架在不同研究系统中均具有适用性,但具体实施需根据数据特征进行调整。在人群研究中,祖源匹配与LD结构的一致性是影响结果解释的关键因素;在植物系统中,多环境效应、复杂基因组结构以及基因拷贝差异则需要在分析设计中加以考虑。这些差异并不改变整体思路,但会影响各步骤的权重与实现方式。
展望未来,随着表观组学、单细胞技术以及多模态数据的发展,遗传变异与表型之间的关系将能够在更多层级上被解析。不同类型数据的整合,将有助于在分子与细胞层面进一步细化调控路径。同时,将统计分析结果与高通量实验手段相结合,有望形成从数据分析到机制验证的连续过程,从而推动复杂性状研究从关联解释向可操作的生物学干预迈进。
作者贡献
方宣钧是本研究的执行人,完成文献调研、数据分析以及论文初稿的写作与修改。作者本人已阅读并同意最终的文本。
致谢
本研究由国家自然科学基金重大项目(30490254)资助。
Barfield R., Feng H., Gusev A., Wu L., Zheng W., Pasaniuc B., and Kraft P., 2018, Transcriptome‐wide association studies accounting for colocalization using Egger regression, Genetic Epidemiology, 42(5): 418-433.
https://doi.org/10.1002/gepi.22131
Bhattacharya A., Li Y., and Love M.I., 2021, MOSTWAS: multi-omic strategies for transcriptome-wide association studies, PLoS Genetics, 17(3): e1009398.
https://doi.org/10.1371/journal.pgen.1009398
Boix C.A., James B.T., Park Y. P., Meuleman W., and Kellis M., 2021, Regulatory genomic circuitry of human disease loci by integrative epigenomics, Nature, 590(7845): 300-307.
https://doi.org/10.1038/s41586-020-03145-z
Bryois J., Calini D., Macnair W., Foo L., Urich E., Ortmann W., Iglesias V.A., Selvaraj S., Nutma E., Marzin M., Amor S., Williams A., Castelo-Branco G., Menon V., De Jager P., and Malhotra D., 2022, Cell-type-specific cis-eQTLs in eight human brain cell types identify novel risk genes for psychiatric and neurological disorders, Nature Neuroscience, 25(8): 1104-1112.
https://doi.org/10.1038/s41593-022-01128-z
Colomé-Tatché M., and Theis F.J., 2018, Statistical single cell multi-omics integration, Current Opinion in Systems Biology, 7: 54-59.
https://doi.org/10.1016/j.coisb.2018.01.003
De Leeuw C., Werme J., Savage J.E., Peyrot W.J., and Posthuma D., 2023, On the interpretation of transcriptome-wide association studies, PLoS Genetics, 19(9): e1010517.
https://doi.org/10.1371/journal.pgen.1010921
Evans P., Nagai T., Konkashbaev A., Zhou D., Knapik E.W., and Gamazon E.R., 2024, Transcriptome‐wide association studies (TWAS): methodologies, applications, and challenges, Current Protocols, 4(2): e981.
https://doi.org/10.1002/cpz1.981
Fagny M., Paulson J.N., Kuijjer M.L., Sonawane A.R., Chen C.Y., Lopes-Ramos C.M., Glass K., Quackenbush J., and Platig J., 2017, Exploring regulation in tissues with eQTL networks, Proceedings of the National Academy of Sciences, 114(37): E7841-E7850.
https://doi.org/10.1073/pnas.1707375114
Fang X.J., 2026, A hierarchical inference framework for multi-trait genetics integrating genomic SEM, PLEIO, and Primo, Tree Genetics and Molecular Breeding, 16(1): 1-15.
Foley C.N., Staley J.R., Breen P.G., Sun B.B., Kirk P.D., Burgess S., and Howson J.M., 2021, A fast and efficient colocalization algorithm for identifying shared genetic risk factors across multiple traits, Nature Communications, 12(1): 764.
https://doi.org/10.1038/s41467-020-20885-8
Gleason K.J., Yang F., and Chen L.S., 2021, A robust two‐sample transcriptome‐wide Mendelian randomization method integrating GWAS with multi‐tissue eQTL summary statistics, Genetic Epidemiology, 45(4): 353-371.
https://doi.org/10.1002/gepi.22380
Hemani G., Bowden J., and Davey Smith G., 2018, Evaluating the potential role of pleiotropy in Mendelian randomization studies, Human Molecular Genetics, 27(R2): R195-R208.
https://doi.org/10.1093/hmg/ddy163
Hendelman A., Zebell S., Rodriguez-Leal D., Dukler N., Robitaille G., Wu X., Kostyun J., Tal L., Wang P., Bartlett M.E., Eshed Y., Efroni I., and Lippman Z.B., 2021, Conserved pleiotropy of an ancient plant homeobox gene uncovered by cis-regulatory dissection, Cell, 184(7): 1724-1739.
https://doi.org/10.1016/j.cell.2021.02.001
Hormozdiari F., Van De Bunt M., Segre A.V., Li X., Joo J.W.J., Bilow M., Sul J.H., Sankararaman S., Pasaniuc B., and Eskin E., 2016, Colocalization of GWAS and eQTL signals detects target genes, The American Journal of Human Genetics, 99(6): 1245-1260.
https://doi.org/10.1016/j.ajhg.2016.10.003
Hu X., Zhao J., Lin Z., Wang Y., Peng H., Zhao H., Wang X., and Yang C., 2022, Mendelian randomization for causal inference accounting for pleiotropy and sample structure using genome-wide summary statistics, Proceedings of the National Academy of Sciences, 119(28): e2106858119.
https://doi.org/10.1073/pnas.2106858119
Hu Y., An Q., Sheu K., Trejo B., Fan S., and Guo Y., 2018, Single cell multi-omics technology: methodology and application, Frontiers in Cell and Developmental Biology, 6: 28.
https://doi.org/10.3389/fcell.2018.00028
Jiang L., Miao L., Yi G., Li X., Xue C., Li M. J., Huang H., and Li M., 2022, Powerful and robust inference of complex phenotypes' causal genes with dependent expression quantitative loci by a median-based Mendelian randomization, The American Journal of Human Genetics, 109(5): 838-856.
https://doi.org/10.1016/j.ajhg.2022.04.004
Khan M., Ludl A.A., Bankier S., Björkegren J.L., and Michoel T., 2024, Prediction of causal genes at GWAS loci with pleiotropic gene regulatory effects using sets of correlated instrumental variables, PLoS Genetics, 20(11): e1011473.
https://doi.org/10.1371/journal.pgen.1011473
Kirsten H., Al-Hasani H., Holdt L., Gross A., Beutner F., Krohn K., Horn K., Ahnert P., Burkhardt R., Reiche K., Hackermüller J., Löffler M., Teupser D., Thiery J., and Scholz M., 2015, Dissecting the genetics of the human transcriptome identifies novel trait-related trans-eQTLs and corroborates the regulatory relevance of non-protein coding loci, Human Molecular Genetics, 24(16): 4746-4763.
https://doi.org/10.1093/hmg/ddv194
Kvamme J., Badsha M.B., Martin E.A., Wu J., Wang X., and Fu A.Q., 2025, Causal network inference of cis- and trans-gene regulation of expression quantitative trait loci across human tissues, Genetics, 230(2): iyaf064.
https://doi.org/10.1093/genetics/iyaf064
Lessard S., Chao M., Reis K., FinnGen and Estonian Biobank Research Team, Beauvais M., Rajpal D.K., Sloane J., Palta P., Klinger K., de Rinaldis E., Shameer K., and Chatelain C., 2024, Leveraging large-scale multi-omics evidences to identify therapeutic targets from genome-wide association studies, BMC Genomics, 25(1): 1111.
https://doi.org/10.1186/s12864-024-10971-2
Li B., and Ritchie M.D., 2021, From GWAS to gene: transcriptome-wide association studies and other methods to functionally understand GWAS discoveries, Frontiers in Genetics, 12: 713230.
https://doi.org/10.3389/fgene.2021.713230
Liang Y., Wang H., and Zhang Y.D., 2025, A-TWAS: an aggregated transcriptome-wide association study model incorporating multiple Bayesian priors, bioRxiv, 2025-01.
https://doi.org/10.1101/2025.01.27.635054
Liu B., Gloudemans M.J., Rao A.S., Ingelsson E., and Montgomery S.B., 2019, Abundant associations with gene expression complicate GWAS follow-up, Nature Genetics, 51(5): 768-769.
https://doi.org/10.1038/s41588-019-0404-0
Lu Y., Xu K., Maydanchik N., Kang B., Pierce B.L., Yang F., and Chen L.S., 2024, An integrative multi-context Mendelian randomization method for identifying risk genes across human tissues, The American Journal of Human Genetics, 111(8): 1736-1749.
https://doi.org/10.1016/j.ajhg.2024.06.012
Mai J., Lu M., Gao Q., Zeng J., and Xiao J., 2023, Transcriptome-wide association studies: recent advances in methods, applications and available databases, Communications Biology, 6(1): 899.
https://doi.org/10.1038/s42003-023-05279-y
Mostafavi H., Spence J.P., Naqvi S., and Pritchard J.K., 2023, Systematic differences in discovery of genetic effects on gene expression and complex traits, Nature Genetics, 55(11): 1866-1875.
https://doi.org/10.1038/s41588-023-01529-1
Parrish R.L., Gibson G.C., Epstein M.P., and Yang J., 2022, TIGAR-V2: efficient TWAS tool with nonparametric Bayesian eQTL weights of 49 tissue types from GTEx V8, Human Genetics and Genomics Advances, 3(1): 100078.
https://doi.org/10.1016/j.xhgg.2021.100068
Porcu E., Rüeger S., Lepik K., Santoni F.A., Reymond A., and Kutalik Z., 2019, Mendelian randomization integrating GWAS and eQTL data reveals genetic determinants of complex and clinical traits, Nature Communications, 10(1): 3300.
https://doi.org/10.1101/377267
Rasooly D., Peloso G.M., and Giambartolomei C., 2022, Bayesian genetic colocalization test of two traits using coloc, Current Protocols, 2(12): e627.
https://doi.org/10.1002/cpz1.627
Shikov A.E., Skitchenko R.K., Predeus A.V., and Barbitoff Y.A., 2020, Phenome-wide functional dissection of pleiotropic effects highlights key molecular pathways for human complex traits, Scientific Reports, 10(1): 1037.
https://doi.org/10.1038/s41598-020-58040-4
Tambets R., Kolde A., Kolberg P., Love M.I., and Alasoo K., 2024, Extensive co-regulation of neighboring genes complicates the use of eQTLs in target gene prioritization, Human Genetics and Genomics Advances, 5(4): 100187.
https://doi.org/10.1016/j.xhgg.2024.100348
Votava J.A., and Parks B.W., 2021, Cross-species data integration to prioritize causal genes in lipid metabolism, Current Opinion in Lipidology, 32(2): 141-146.
https://doi.org/10.1097/MOL.0000000000000742
Wainberg M., Sinnott-Armstrong N., Mancuso N., Barbeira A.N., Knowles D.A., Golan D., Ermel R., Ruusalepp A., Quertermous T., Hao K., Björkegren J.L.M., Im H.K., Pasaniuc B., Rivas M.A., and Kundaje A., 2019, Opportunities and challenges for transcriptome-wide association studies, Nature Genetics, 51(4): 592-599.
https://doi.org/10.1038/s41588-019-0385-z
Wallace C., 2021, A more accurate method for colocalisation analysis allowing for multiple causal variants, PLoS Genetics, 17(9): e1009440.
https://doi.org/10.1371/journal.pgen.1009440
Xie Y., Shan N., Zhao H., and Hou L., 2021, Transcriptome-wide association studies: general framework and methods, Quantitative Biology, 9(2): 141-150.
https://doi.org/10.15302/J-QB-020-0228
Zhang J., and Zhao H., 2023, eQTL studies: from bulk tissues to single cells, Journal of Genetics and Genomics, 50(12): 925-933.
https://doi.org/10.1016/j.jgg.2023.05.003
Zhang Y., Wang M., Li Z., Yang X., Li K., Xie A., Dong F., Wang S., Yan J., and Liu J., 2024, An overview of detecting gene-trait associations by integrating GWAS summary statistics and eQTLs, Science China Life Sciences, 67(6): 1133-1154.
https://doi.org/10.1007/s11427-023-2522-8
Zhao S., Crouse W., Qian S., Luo K., Stephens M., and He X., 2022, Adjusting for genetic confounders in transcriptome-wide association studies leads to reliable detection of causal genes, bioRxiv, 2022(9): 1-46.
https://doi.org/10.1101/2022.09.27.509700
Zheng Z., Huang D., Wang J., Zhao K., Zhou Y., Guo Z., Zhai S., Xu H., Cui H., Yao H., Wang Z., Yi X., Zhang S., Sham P.C., and Li M.J., 2020, QTLbase: an integrative resource for quantitative trait loci across multiple human molecular phenotypes, Nucleic Acids Research, 48(D1): D983-D991.
https://doi.org/10.1093/nar/gkz888
Zhu H., and Zhou X., 2020, Transcriptome-wide association studies: a view from Mendelian randomization, Quantitative Biology, 2020: 1-15.
Zuber V., Grinberg N.F., Gill D., Manipur I., Slob E.A., Patel A., Wallace C., and Burgess S., 2022, Combining evidence from Mendelian randomization and colocalization: review and comparison of approaches, The American Journal of Human Genetics, 109(5): 767-782.
.png)
.png)
.png)
.png)